home *** CD-ROM | disk | FTP | other *** search
/ IRIX Installation Tools & Overlays 2002 November / SGI IRIX Installation Tools & Overlays 2002 November - Disc 4.iso / dist / sgsearch.idb / usr / sgsearch / conf / sgbot.conf.z / sgbot.conf
Text File  |  2002-10-15  |  2KB  |  110 lines

  1. ## SGBot configuration file
  2. ## version 0.8
  3. ##
  4. ## Alan Braverman <alanb@sgi.com>
  5. ## December 6, 1996
  6.  
  7. ## Index Directory
  8. ## 
  9. ## This is the directory into which SGBot will write the index files,
  10. ## so this directory must be writable by the user running SGBot, of
  11. ## course.
  12.  
  13. indexDir /usr/sgsearch/index/
  14.  
  15. ## Temporary Directory
  16. ##
  17. ## This is a directory into which SGBot will stick (and then delete)
  18. ## temporary files.
  19.  
  20. tmpDir /tmp/
  21.  
  22. ## Index Binary Directory
  23. ##
  24. ## This is the directory in which SGBot can find the other executables
  25. ## it needs for indexing (sgreader, sgdct, sginverter, sgmerge)
  26.  
  27. indexBinDir /usr/sbin/
  28.  
  29. ## Include Extension
  30. ##
  31. ## The includeExtension variables tell SGBot what file extensions it
  32. ## should assume are HTML or ASCII text.
  33.  
  34. includeExtension asci
  35. includeExtension ascii
  36. includeExtension faq
  37. includeExtension html
  38. includeExtension htm
  39. includeExtension info
  40. includeExtension readme
  41. includeExtension text
  42. includeExtension txt
  43.  
  44. ## Exclude Scheme
  45. ##
  46. ## The excludeScheme variables tells SGBot what URL schemes (or
  47. ## protocols) to ignore.
  48.  
  49. excludeScheme gopher
  50. excludeScheme https
  51. excludeScheme mail
  52. excludeScheme mailto
  53. excludeScheme news
  54. excludeScheme nntp
  55. excludeScheme rlogin
  56. excludeScheme shttp
  57. excludeScheme telnet
  58. excludeScheme wais
  59.  
  60. ## Allow Host
  61. ##
  62. ## The allowHost variables tell SGBot what hostnames are allowed to be
  63. ## indexed.  All others will be ignored.  Wildcards may be used to specify
  64. ## subdomains.  SGBot is not yet very smart when it comes to partial
  65. ## hostnames.
  66.  
  67. allowHost void
  68. # allowHost void.esd
  69. # allowHost void.esd.sgi.com
  70. # allowHost *.esd.sgi.com
  71.  
  72. ## URL
  73. ##
  74. ## The url variables tell SGBot at what URLs to begin its search.
  75. ## Hostnames found in these URLs are automatically added to the allowHost
  76. ## list.
  77.  
  78. url http://void
  79. # url http://foo
  80. # url http://bar
  81.  
  82. ## Exclude URLs
  83. ##
  84. ## The excludeUrl variables tell SGBot what URLs to ignore.  The
  85. ## wildcard character (*) may be appended to the end of any URL.
  86.  
  87. excludeUrl http://void.esd.sgi.com/not-me.html
  88. excludeUrl http://void.esd.sgi.com/private/*
  89.  
  90. ## Filename Base
  91. ##
  92. ## The filenameBase variable tells SGBot what to name all the files
  93. ## it dumps out, like sgbot.dct, sgbot.inv, etc.
  94.  
  95. filenameBase sgbot
  96.  
  97. ## Verbose Output
  98. ##
  99. ## The verbose flag tells SGBot to dump extra log information.
  100. ## Uncomment this line for verbose output
  101.  
  102. # verbose true
  103.  
  104. ## Time Out
  105. ##
  106. ## The timeOut variable sets the time (in seconds) that SGBot will
  107. ## wait for a slow document
  108.  
  109. timeOut 30
  110.